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一 一 日 报 数据 的 自动 抓 取 与 填报 


摘 要 : 本 文 描述 了 使 用 Python 抓 取 动 态 加 载 页 面 的 报表 数据 、 更 新 Excel 模板 数据 的 全 过 程 ， 从 而 实现 公司 周期 性 报表 数 
据 的 自动 填报 。 重 点 介绍 了 两 个 问题 的 解决 方案 : 一 是 怎样 获取 JavaScript 动态 加 载 页 面 的 数据 ; 二 是 怎样 部 分 更 新 Excel 模 


板 的 数据 。 
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1. 背景 

麦肯锡 称 : 数据 ， 已 经 渗透 到 当今 每 一 个 行业 和 业 
务 职能 领域 ， 成 为 重要 的 生产 因素 。 在 这 个 时 代 ， 公 司 
的 决策 者 、 经 营 者 都 需要 通过 数据 观察 企业 运作 状态 以 
及 规律 ， 没 有 数据 ， 我 们 举步维艰 。 

系统 报表 能 为 我 们 提供 各 种 基础 数据 ， 但 数据 维度 
和 格式 固化 ,不 能 灵活 满足 我 们 的 临时 需求 。 所 以 ， 手 
工 填报 定制 的 、 多 变 的 经 营 日 报 ( 周报 \ 月 报 ) 是 所 有 经 
营 单位 都 必须 持续 开展 的 日 常 工 作 。 

Excel 灵活 而 强大 ， 能 处 理工 作 中 大 部 分 的 数据 。 使 
用 Excel 可 以 方便 地 制作 包含 原 数据 、 计 算 过 程 和 最 终 展 
现 结果 的 日 报 (周报 \ 月 报 ) 模板 。 


发 送 请 求 
有 息 取 报表 数据 
写 入 Excel 模 板 获取 数据 
存储 数据 


河南 有 线 信息 支撑 部 在 日 常 工作 中 ， 常 根据 公司 领 
导 要 求 ， 临 时 制作 各 种 Excel 模板 ， 并 根据 当时 需求 ， 有 
选择 地 将 各 系统 平台 上 的 报表 数据 手工 填 入 临时 模板 。 
该 工作 难度 低 ， 重 复 性 强 ， 尤 其 月 初 ， 需 要 填报 的 模板 
在 30 份 左右 ， 每 份 需要 打开 的 报表 页 面 基 本 都 在 10 个 
以 上 ， 仅 月 初 就 需要 6 人 一 天 的 工作 量 。 

为 此 ， 我 们 尝试 寻找 一 种 自动 获取 数据 并 填报 的 方 


法 ,最 终 找到 目前 排行 第 一 的 开源 开发 工具 Python， 经 
过 一 段 时 间 的 学 习 和 研究 ， 我 们 利用 该 工具 编写 了 网 页 
和 候 取 、Excel 数据 填写 的 可 执行 程序 ， 成 功 实现 了 数据 的 
自动 填报 工作 目标 。 
2. 思路 和 过 程 概述 


选择 合适 的 请 求 方法 : 
selenium 测 试 工具 可 获取 动态 泻 染 页 面 数据 


解决 中 文 参数 : 
使 用 quote( ) 和 unquote( )| 转 码 


使 用 urlencode( ) 将 构造 参数 转 为 URL 
使 用 get( ) 发 送 请 求 


分 析 页 面 元 素 ， 了 解数 据 位 置 


\ 使 用 WebDriverWait( ) 等 待 目标 数据 出 现 


Python 写 Excel 文 档 的 5 种 方法 对 比 


使 用 win32com 组 件 打 开 Excel 应 用 并 写 入 数据 
保存 关闭 浏览 器 和 Excel 进 程 
使 用 pyinstaller 综 译 并 生成 可 执行 文件 
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使 用 python 编写 网 页 候 虫 的 步 怠 ， 可 分 为 : 发送 请 
求 、 获 取 数 据 、 解 析 数 据 和 存储 数据 四 步 。 但 在 实际 操 
作 中 ， 因 扑 取 方法 不 同 , 我 们 直接 获取 到 了 数据 的 列表 ， 
所 以 省 去 了 数据 解析 环节 ， 只 保留 了 三 步 : 发 送 请 求 、 
获取 数据 和 存储 数据 。 每 个 过 程 处 理 细节 详情 如 图 1 所 
示 : 

下 面 按 图 示 步 又 ， 分 步 说 明 在 应 用 程序 的 编写 过 程 
中 ， 每 一 步 遇 到 的 问题 及 相应 的 解决 方案 。 
3. 编制 过 程 详解 
3. 1 发 送 请 求 
3.1.1 请 求 页 面 的 三 种 方法 选择 

疏 取 数据 ， 第 一 步 操 作 就 是 模拟 浏览 器 向 网 页 所 
在 的 服务 器 发 出 请 求 。 我 们 需要 抓 取 的 页 面 是 公司 内 部 
CRM 客户 关系 管理 系统 的 报表 数据 ， 无 需 身 份 验证 ， 但 
请 求 参数 较 多 ， 报 表 数 据 由 JavaScript 动态 加 载 。 
3.1.1.1 基础 的 用 法 ,使 用 urllib 的 request 模块 

该 模块 中 的 urlopen( ) 方法 ， 可 以 实现 简单 的 请 求 
发 送 操作 ， 并 得 到 响应 。 但 该 方法 在 构造 带 参数 的 请 求 
时 较为 复杂 。 
3.1.1.2 高 级 用 法 ,使 用 requests 库 

requests 库 中 的 方法 可 轻松 实现 带 参 数 、cookies、 登 
录 验 证 和 代理 设置 等 网 页 请 求 ， 但 得 到 的 结果 和 在 浏览 
带 中 看 到 的 不 一 样 : 在 浏览 需 中 可 以 看 到 的 显示 数据 ， 
但 requests 得 到 的 结 1 并 没有 。 这 是 因为 requests 获 
取 的 都 是 原始 HTML 文档 ， 而 浏览 器 中 的 数据 则 是 经 过 
JavaScript 处 理 数据 后 生成 的 结果 。 
3.1.1.3 模拟 浏览 器 法 ， 使 用 selenium 库 

为 了 解决 获取 JavaScript 生成 的 动态 页 面 数 据 问题 ， 
我 们 查阅 相关 资料 后 最 终 选 择 使 用 模拟 浏览 器 库 一 一 
Selenium 处 理 。 

Selenium 是 一 个 自动 测试 工具 ， 利 用 它 可 驱动 浏览 
器 执行 特定 的 动作 ， 如 点 击 、 下 拉 等 操作 ， 同 时 还 可 
以 获取 浏览 右 当 前 哇 现 的 页 面 源 代码 ， 做 到 可 见 即 可 
疏 。 注 : 在 使 用 该 方法 前 ， 除 安装 Selenium 库 外 ， 还 
需要 正确 安装 好 使 用 的 浏览 需 ， 如 Chrome， 并 配置 好 
ChromeDriver。 
3.1.2 页 面 分 析 与 构造 请 求 

分 析 请 求 参 数 ， 打 开 报 表 页 面 ， 按 F12 打开 “开发 
者 工具 ”， 从 Query String Parameters 发 现 URL 中 所 带 参 
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表 1 
问题 描述 解决 方法 
中 文 参数 使 用 quote( ) 和 unquote( ) 转 码 
将 参数 与 基础 地 址 拼接 形 Ep ee 
成 可 用 的 URL 使 用 “基础 地 址 +urlencode ( 参数 ) 
使 用 safe 如 : 
参数 中 有 特殊 字符 “/” urlencode (params, ” utf-8”,， 
safe=” /” ) 


3.1.3 发 送 请 求 

根据 “分 析 请 求 参 数 ” 时 所 获 信息 ， 使 用 selenium 
库 模拟 谷歌 浏览 器 向 服务 器 发 出 请 求 。 获 取 各 地 市 现金 
流 的 脚本 编写 如 下 : 

def get_cash (p_r name, p_r_id, std, edd, c_id, p_ 


type, p_id, p_name, p_r type ) : 
browser=webdriver.Chrome ( ) # 初 始 化 一 个 浏览 
base_url = “http: //…/bossreport25/frameset?”# 基础 
地 址 
parames = { ‘参数 1”: p_r_namet# 传递 前 台 输 入 的 


“参数 mn ”: p_r_ type] 
url = base_url + urlencode(params, ”utf-8” ， 
safe=”/”)# 重 构 带 参数 的 地 址 

browser.get (url ) # 发 送 请 求 
3.2 获取 数据 
3.2.1 页 面 分 析 、 获 取 数 据 

打开 报表 页 面 ， 按 F12 打开 “开发 者 工具 ”， 选 中 
要 提取 的 元 素 ， 右 键 选择 “审查 元 素 ”， 可 找到 该 元 素 
所 在 的 节点 位 置 。 由 于 该 元 素 没 有 较 明 确 的 节点 ID， 且 
有 较 多 同类 节点 ， 因 此 采用 逐 级 上 查 ， 找 到 离 其 最 近 的 
有 明确 节点 ID 的 节点 “_bookmark2 ”， 以 便 CSS 选 
择 吉 定 位 待 查 数据 。 获 取 数 据 脚 本 如 下 : 

bookmark =browser.find_element_by_id( “__ 
bookmark_2”)# 找 到 指 定 元 素 

cash_list = bookmark.find_elements_by_css_ 
selector(“tr”)# 找到 该 元 素 包 含 的 数据 元 素 
3.2.2 关于 延 时 等 待 

在 调 测 过 程 中 ， 发 现 报表 页 面 自动 打开 后 很 快 关 
闭 ， 并 没有 获得 目标 数据 。 资 料 显 示 selenium 的 get ( ) 
方法 会 在 网 页 的 框架 加 载 结束 后 结束 执行 ， 此 时 ， 服 务 
天 给 浏览 需 的 响应 中 可 能 也 没有 目标 数据 。 因 此 ， 这 里 
需要 增加 延 时 等 待 。 延 时 等 待 分 显示 和 隐 式 ， 在 本 应 用 


数 较 多 ， 且 含有 中 文 参 数 ( 地 市 信息 ) 。 针 对 这 样 的 复 
杂 参 数 信息 ， 我 们 采用 了 “基础 地 址 + 参数 信息 ”的 方 
法 重新 构造 URL， 然 后 再 使 用 Selenium 库 发 送 请 求 。 在 
此 过 程 中 ， 遇 到 了 不 少 细节 问题 ， 详 情 及 解决 方法 如 表 1 
所 示 : 


1， 我 们 采用 了 显示 等 待 的 方法 ， 在 控制 语句 中 增加 了 
WebDriverWait() 也 数 。 即 ， 在 规定 时 间 内 加 载 指定 节点 ， 
如 果 加 载 完成 ， 则 正常 返回 查找 的 节点 ， 和 否则 ， 抛 出 超 
时 异常 。 控 制 脚本 如 下 : 

wait =WebDriverWait ( browser，20 ) # 等 待 指定 时 间 
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wait.until (了 上 了 C.presence_of_all _elements_located (By. 
ID，“_ bookmark_2”) ) ) # 显 示 等 待 ， 直 接 到 指定 元 
素 载 人 
3. 3 存储 数据 


3.3.1Python 往 Excel 中 写 数 据 的 5 种 方法 
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提供 了 大 量 的 第 三 方 模块 。 完成 一 项 任务 可 有 多 种 方法 ， 

只 有 选择 合适 的 方法 才能 达到 自己 的 目标 。 将 所 获 数据 
写 入 Excel 时 ， 我 们 尝试 了 多 种 方法 ， 但 都 无 法 实现 “无 
损 模 板 地 更 新 ”的 目标 。 网 上 有 文章 整理 了 Python 写 入 
Excel 的 4 种 方法 及 其 优 缺 点 ， 增 加 我 们 自己 的 一 种 方法 ， 


Python 拥有 一 个 强大 的 标准 库 ， 同 时 ，Python 社区 归纳 如 下 : 
表 2 
方法 to_excel XlsWriter xlrd&xlwt OpenPyXL Microsoft Excel API 
简介 将 dataFrame 中 | 可 创建 Excel 2007 或 更 | 含 srd、xlwt 模块 ， 可 以 读 写 直接 通过 COM 组 件 与 Microsoft Excel 进程 
数据 导出 至 Excel 表 | 高 版 本 的 XLSX 文件 | 分 别提 供 读 、 写 功能 | XLSX 和 XLS 文件 | 通信 ,通用 其 各 种 功能 实现 对 文件 的 操作 
读 取 VY x WY VY V 
写 人 V V V 4 V 
修改 X x x AZ V 
xls V x V x V 
.xlsx V VvV 慎 用 V V 
系统 限制 无 无 无 无 Windows+Excel 


其 中 ， 使 用 OpenPyXL 修改 模板 时 ， 只 可 追加 sheet 
页 ， 但 不 能 更 新 单元 格 ， 会 影响 表 中 原 有 公式 ; 但 使 用 
Microsoft Excel 则 可 修改 部 分 单元 格 数据 ， 且 不 会 影响 原 
公式 。 因 为 本 应 用 中 既 需 要 读 ， 又 需要 更 新 Excel 文档 中 
的 部 分 数据 ， 且 不 能 修改 原文 档 中 的 公式 ， 所 以 ， 在 此 
只 能 使 用 Microsoft Excel API， 即 引用 win32com 组 件 。 
3.3.2 使 用 win32com 组 件 ， 修 改 Excel 表 中 部 分 数据 

写 入 Excel 文档 的 全 过 程 : 调用 win32com 组 件 ， 
启动 独立 的 Excel 进程 ， 并 打开 Excel 模板 文件 ， 使 用 
sheet.Cells (i，j ) .Value 实现 给 “第 i 行 第 j 列 ”单元 格 
赋值 。 相 关 脚 本 如 下 : 

excel = win32com.client.DispatchEx ( &apos;Excel. 
) # 启动 独立 的 Excel 进程 
cash_book= excel.Workbooks.Open ( “了 : / 模 板 

，ReadOnly=False ) # 打开 模 板 

sht1=cash_book.Worksheets ( “sheet1”# 打 开 待 更 新 
的 sheet 页 


for i in range (0， 


Application&apos; 


xlsx” 


18 ) # 18 分 公司 ， 需 要 读 18 行 数 
据 


forj in range (0，6) : # 每 个 分 公司 需要 6 项 数据 

sht.Cells (i+$，j+4 ) .Value=cash_list[8*i+j] # 需要 从 
当前 sheet 的 第 5 行 第 4 列 更 新 数据 ， 数 据 来 源 为 以 上 获 
取 的 数据 列表 

j +=] 


1+=1 


自动 打开 EXCEL 文 件 


目标 页 面 逐 一 打开 


e201909cesh2 so 入 < 
人 [gq [q Fg 人 GD) 


图 3 


4. 成 果 展 现 

经 过 以 上 三 步 操作 ， 一 个 完整 的 数据 抓 取 和 填报 程 
序 就 完成 了 ， 加 上 友好 的 参数 录入 及 进度 提示 住处 ， 再 
使 用 pyinstaller 将 程序 编译 成 可 执行 文件 。 将 可 执行 文件 
和 模板 一 起 移 置 到 应 用 环境 中 ， 按 周期 执行 该 文件 ， 输 
入 统计 需要 的 参数 ， 即 可 以 直观 地 看 到 页 面 打开 过 程 和 
Excel 数据 刷新 过 程 。 图 2 为 目标 页 面 逐 一 打开 的 过 程 ， 
3 为 Excel 文档 自动 打开 的 过 程 ， 此 后 ， 随 着 Excel 数 
据 的 刷新 ， 文档 中 原 有 计算 公式 会 自动 计算 ， 待 数据 写 
入 完毕 ， 目 标 数据 即 为 可 发 布 数据 。 
结语 

使 用 python 的 扩展 库 和 模块 实现 获取 和 使 用 数据 
较为 简单 ， 本 应 用 使 用 的 扩展 库 和 模块 有 : selenium、 
urllib 、win32com 和 datetime 等 。 方 便 快 捷 地 实现 了 目标 
功能 ， 解 决 常用 报表 的 自动 填报 问题 ， 在 节约 人 力 成 本 
的 同时 ， 提 高 了 工作 效率 和 数据 准确 度 。 轩 
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